import scrapy


class BaiduSpider(scrapy.Spider):
    # 爬虫的名字 用于运行爬虫的时候使用的值
    name = "baidu"
    # 允许访问的域名
    allowed_domains = ["www.baidu.com"]
    # 如果请求的网址结尾是html 后面的/要删掉——新版好像会自动删除
    start_urls = ["http://www.baidu.com"]

    # 是执行start_urls之后 执行的方法  response就是返回的那个对象
    # 相当于 response = urllib.request.urlopen()
    #        response = requests.get()

    def parse(self, response):
        # 返回的是字符串
        content = response.text
        # content = response.body 返回二进制数据
        # 一般这个pass都会删掉 然后再这里操作
        print("------------------------------------------")
        print(content)
